כנס 2011

כנס האיגוד ייערך ביום רביעי, 25.5.2011, בבית ציוני אמריקה בתל-אביב.

דמי ההשתתפות בכנס:

  • 150 ש"ח לחברי האיגוד.
  • 75 ש"ח לסטודנטים (יש להציג תעודת סטודנט).
  • 200 ש"ח לאחרים.

במקביל להרשמה לכנס, נערכת הרשמת חברים וגביית דמי חבר לשנת 2011. דמי החבר השנתיים הם 60 ש"ח (סטודנטים פטורים מתשלום דמי החבר). חברי האיגוד נהנים מהנחות בפעילויות אחרות שהאיגוד מארגן (סדנאות, כנסים ייחודיים).

להרשמה לכנס ותשלום דני חבר באיגוד לשנת 2011, לחצו כאן.

לפרטים אודות מרכז הכנסים ודרכי ההגעה, לחצו כאן

תכנית הכנס

אנא עקבו אחרי עדכון התכנית.

8:30-9:15 – התכנסות והרשמה

9:15-10:20 – מושב פתיחה

  • ברכות
  • הרצאת אורח מאת פרופ' רון ליבנה –  תוכנית לימודים במתמטיקה: תכנון מונחה תמריצים

10:30 -10:20 – הפסקה

10:30 – 12:00 – מושבים מקבילים.

  • מושב הוראת הסטטיסטיקה בחטיבות הביניים ובתיכונים –  יו"ר: עדנה שכטמן.
  • מושב סטטיסטיקה יישומית – יו"ר ישי וייסמן

13:30 – 12:00 – ארוחת צהריים והאסיפה הכללית של האיגוד.

14:30 – 13:30 – הרצאת סקירה – הסטטיסטיקה בתעשיית הפיננסים – אפרים גולדין.

14:40 – 16:20 – מושבים מקבילים

  • מושב סטטיסטיקה רשמית יו"ר – צחי מקובקי. ארגון: אריה רייטר
  • מושב אקטואריה וניהול סיכונים  יו"ר: יניב זקס ארגון: יניב זקס
  • מושב בין תיאוריה ליישום – יו"ר : רות הלר

16:50 -16:20 – הפסקת קפה וכיבוד קל

16:50 –  18:00 מושב סיום

  • חלוקת פרסי האיגוד ופרס כדור הבדולח
  • פאנל: סטטיסטיקה בשטח

תכנייות המושבים ותרצירי ההרצאות

הרצאת פתיחה: תוכנית לימודים במתמטיקה: תכנון מונחה תמריצים

פרופ רון לבנה, ראש וועדת תוכנית הלימודים במתמטיקה לחטיבה העליונה

תוכניות לימודים משקפות במידה רבה את הערכים של המתכננים: צרכי הפרט וצרכי החברה , אינטגרציה של החלשים, טיפוח מצוינות, והכנה לסוגים שונים של מסלולי חיים בהמשך. אנו נציג מודל של מערכת החינוך בו נטען כי תכנון לפי ערכים כבסיס הוא שגוי מיסודו. מערכות חינוך מתוארות טוב יותר במונחים של תמריצים ואילוצים של כל הגורמים המעורבים בהם, מהתלמידים ועד הפוליטיקאים. בישראל במיוחד המערכת מתנהגת יותר כמערכת אקולוגית, או של "שוק חופשי", בה ההתנהגות בפועל היא פחות פועל יוצא של תכנון ויותר של האינטראקציה בין האינטרסים של המשתתפים. מטרת ניתוח כזה היא להראות את דרגות החופש העומדות לרשות המתכננים, ובכך אולי לשפר את סיכויי הצלחת התוכנית.


הרצאת סקירה: תוכנית הסטטיסטיקה בתעשיית הפיננסים

אפרים גולדין, G-stat

מערכות המידע של החברות העוסקות במכירת מוצרים ושירותים, מעבדות ואוגרות מידע רב במהלך ניהול הקשר עם לקוחותיהם. כך למשל בקופה הרושמת ברשת השיווק מעובד המידע על סל הקניות של הלקוח, בחברת הסלולר מתועדים נתוני השיחות של המנוי ובבנק נשמרים נתוני התנועות הכספיות. במהלך השנים האחרונות למדו החברות ששימור המידע לאורך זמן יכול להביא להן תועלות עסקיות רבות. כך למשל לימוד מרכיבי סלי הקניות של לקוח של רשת שיווק יכול לאפשר להציע לו הצעות ממוקדות לרכישת מוצרים המתאימים לפרופיל הרכישות שלו בעבר. לאחרונה הסתבר שגם נתונים "לא מובנים" כמו מסמכים, תמונות ,הקלטות ומידע מרשתות חברתיות יכולים להיות גם בעלי משמעות עסקית רבה .כמות המידע המובנה המתווסף לבסיסי הנתונים של חברה המנהלת מגעים עם מיליוני לקוחות יכולה להגיע לעשרות ואף מאות מיליוני רשומות ליום. אם מוסיפים לנתונים אלו גם את המידע הלא מובנה כמויות המידע הנאגרות מדי יום יכולות להיות גדולות פי כמה וכמה. עיבוד כמויות המידע האדירות הללו והפיכת המידע לבעל משמעות עסקית מציבה אתגרים בהיקפים שלא היו מוכרים לנו בעבר. ההרצאה תוקדש לסקירת המגמות העדכניות בתחום, תוך שימת דגש על התפקיד המרכזי שהכלים הסטטיסטיים ממלאים בתהליך עיבוד המידע והפיכתו ממידע גולמי מובנה או לא מובנה למידע בעל ערך כלכל . י

מושב הוראת הסטטיסטיקה בחטיבות הביניים ובתיכונים –  יו"ר: עדנה שכטמן

מודל להוראת סטטיסטיקה בסיסית תוך שימוש באינטרנט ובמחשב

בני יקיר,האוניברסיטה העברית

לאחרונה פיתחתי שני קורסים להוראת סטטיסטיקה בסיסית לטובת אוניברסיטה מבוססת רשת. הקורסים מסתמכים על ספר מקוון שכתבתי, תרגול אוטומטי ברשת, תרגול בבדיקה עצמית של התלמידים, ופורומים לדיון משותף בבעיות שעולות מהחומר הנלמד. ההנחיה בקורסים אלה ניתנת בידי אנשים שאינם מומחים בסטטיסטיקה. בהרצאה נתאר את שיטת ההוראה באוניברסיטה הנ"ל ואת המאפיינים של הקורסים הספציפיים לסטטיסטיקה. מאפיין מרכזי הוא שימוש בסימולציות כתחליף לעיסוק מתמטי במושגים הסתברותיים. הסימולציות וניתוח סטטיסטי של מסדי נתונים נעשים תוך שימוש במערכת המחשוב R, שמרכיבים מינימליים ממנה נלמדים במסגרת הקורס.

סקירת תכנית הלימודים הנוכחית בסטטיסטיקה

דוד פייכנפלד – משרד החינוך

מה צריכה תכנית הלימודים בסטטיסטיקה לכלול?

יואב בנימיני, אוניברסיטת תל אביב, יוסי לוי, טבע

דיון בהשתתפות הקהל

מושב סטטיסטיקה יישומית – יו"ר: ישי וייסמן

Managing Risks with Data

Ron S. Kenett, The KPA Group and University of Torino

Assessing exposure to potential risk events and initiating proactive risk mitigation actions is currently a clear priority of businesses, organizations and governments world-wide. Managing risks with data is a growing discipline that involves data acquisition and data merging, risk analytics and risk management decisions support systems. The presentation provides an overview of modern integrated risk management, including examples of how qualitative unstructured data, like text and voice recordings, can be combined with quantitative data like balance sheets and technical performance, to generate integrated risk scores. We suggest that data based risk analysis is an essential competency complementing and reinforcing the more traditional subjective scoring methods used in classical risk management. The examples we use consist of applications of risk scoring models for evaluating risks, Bayesian Networks to map cause and effect, Ontologies to interpret automated text annotation, ETL to merge various data bases and a follow up integrated risk management approach.

 

Are adaptive allocation designs beneficial for improving power in binary response trials?

David Azriel, The Hebrew University

We consider the classical problem of selecting the best of two treatments in clinical trials with binary response. The target is to find the design that maximizes the power of the relevant test.
Many papers use a normal approximation to the power function and claim that Neyman allocation that assigns subjects to treatment groups according to the ratio of the responses' standard deviations, should be used. As the standard deviations are unknown,  an adaptive design is often recommended. The asymptotic justification of this approach is arguable, since it uses the normal approximation in tails where the error in the approximation is larger than the estimated quantity. We consider two different approaches for optimality of designs that are related to Pitman and Bahadur definitions of relative efficiency of tests. We prove that the optimal allocation according to the Pitman criterion is the balanced allocation and that the optimal allocation according to the Bahadur approach depends on the unknown parameters.  Exact calculations reveal that the optimal allocation according to Bahadur is often close to the balanced design, and the powers of both are comparable to the Neyman allocation for small sample sizes and are generally better for large experiments. Our findings have important implications to the design of experiments, as the balanced design is proved to be optimal or close to optimal and the need for the complications involved in following an adaptive design for the purpose of increasing the power of tests is therefore questionable.

 

Individual driver’s undesirable driving events – a temporal perspective

Oren Musicant, Hillel Bar-Gera and Edna Schechtman, Ben-Gurion University

The advantage of in-vehicle monitoring technology enables the collection of accurate and high resolution driving information. The availability of such large amount of information may open new possibilites to analyse behaviour of small samples and even individual’s driving behaviour in order to evaluat change over time, strengths and weaknesses which can be used to create personalized interventions and feedback meassages. In this paper we demonstrate how information from technology can be used for analyzing a single driver’s behavior. We analyzed individual driver’s information received from a novel in-vehicle technology which identifies the occurrences of undesirable driving events such as extreme braking and accelerating, sharp cornering and sudden lane changing. During the three years measurement period, information about more than 5704 trips, 2107 driving hours and 6878 undesired driving events was recorded. The maximum likelihood estimation was used to fit the Negative-Binomial model for the events rate. Then, several negative binomial regression models were used to analyze how trip duration and daytime and day of the week are linked to the rate of undesirable driving events. A generalized additive model (GAM) with the P-spline method for smoothing was used to evalauate how driving behavior changes over time, and a “before” and “after” study was performed to test the effect of providing feedback about driving behavior. Insurers and safety officers in commercial fleets can use driving information collected by technology to analyze trends in behavior and to evaluate the usefulness of intervention plans – even for a single driver.

מושב – בין תיאוריה ליישום – יו"ר : רות הלר

A nonparametric Item Response Theory

Shlomo Yitzhaki, The Hebrew University and Central Bureau of Statistics, Rinat Itzhaki, Henrietta Szold Institute. and Taina Pudalov, Central Bureau of Statistics

The Item Characteristic Curve describes the relationship between the probability of correctly answering a question and ability. Ability is a latent variable. Therefore one has to impose distributional assumptions on ability in order to estimate the relationship. In this paper we overcome the need to impose an assumption on the distribution of abilities by using the properties of concentration curves and the Gini Mean Difference. As a result we are able to investigate whether the probability of correctly answering a question is monotonically related to a specific ability. The paper demonstrates the properties of the technique.

 

Statistical analyses for time series data based on Gini

Amit Shelef, Ben-Gurion University

Most of the literature for analyzing time series measure dispersion using the variance. Moreover, the Ordinary Least Squares (OLS) is widely used in most time series models and methods. In this research we develop and investigate the properties of an alternative but parallel approach for analyzing time-series, using the Gini’s Mean Difference (GMD) as an alternative index of variability. The GMD shares many properties with the variance, but can be more informative about the properties of distributions that depart from normality as well as in the presence of extreme observations.

More specifically, we develop a new terminology by introducing parallel definitions for some concepts in time series, based on implementing the GMD instead of the variance (for example, Gini-autocorrelation). The GMD creates two Gini-covariances between each pair of variables and these are not necessarily equal. Consequently, it enables to check for violations of the implicit assumptions imposed by the use of the variance. For example, the relationship between Xt-1 and Xt can be measured in two directions (Gini-corr(Xt,Xt-1) and Gini-corr(Xt-1, Xt). We consider an autoregressive model with heavy tailed innovations and demonstrate via simulations that in the presence of outliers the two Gini-autocorrelations might be differ (a violation of the existing variance-based autocorrelation assumption). In order to demonstrate the contribution of using the GMD instead of the OLS when analyzing time series, we built a simulation for estimating an AR process using Gini regressions. Simulations show that in the presence of extreme observations, the Gini regression estimators are usually more robust than those of the OLS.

V-structure prioritization in learning a Bayesian network

Boaz Lerner, Ben-Gurion University

Constraint-based algorithms encounter v-structure contradictions that are usually resolved arbitrarily, based on the node ordering and orientation strategy. This affects graph correctness and may undermine causal inference and discovery. We suggest a method based on conditional mutual information to reduce arbitrariness and prioritize orientation of v-structures. Using known and synthetic networks, we show the advantage of this method in the PC, conservative PC, and recursive autonomy identification algorithms.

 

Why did the prediction model fail?

Yuval Benjamini and Bin Yu, University of California, Berkeley

Neuroscience recordings (fMRI, EEG) often generate noisy responses, that are only partially related to the cognitive tasks (or treatments). Thus, failure of prediction models to predict such responses can be blamed on either high measurement variance or problems with the prediction models (or both). Estimating the treatment variance (under the random-treatment ANOVA model) can help tell these causes apart.

The classical way to do this is to compare the variance-between and variance-within repeats. However, correlation between the measurements can severely bias these estimates. In this talk we introduce a novel permutation correction to remove this bias. It is flexible and easy to use, and does not require estimating the full correlation of the data or a balanced design. We demonstrate its usefulness for analyzing predictions of responses in the primary (V1) and intermediate (V4) visual cortex.

מושב אקטואריה וניהול סיכונים – יו"ר: יניב זקס. ארגון: יניב זקס

Extensions of the Lee-Carter model for simultaneous mortality projections

Yaser Awad, Shaul Bar-Lev, Udi Makov, University of Haifa

The literature on mortality projections was dominated in the 1990's by the Lee-Carter model which assumes that the central death rate for a specific age follows a log-bilinear form, allowing for variations in the level of mortality over time. The paper will discuss potential extensions to the Lee-Carter model for simultaneous projection of several populations.

Translation-invariant and positive-homogeneous risk measures and optimal

Zinoviy Landsman and Udi Makov, University of Haifa

The problem of risk portfolio optimization with translation-invariant and positive-homogeneous risk measures, which includes value-at-risk (VaR) and tail conditional expectation (TCE), leads to the problem of minimizing a combination of a linear functional and a square root of a quadratic functional for the case of elliptical multivariate underlying distributions. When the portfolio does not contain the riskless component this problem was recently treated by the authors. In this paper we consider the portfolio which contains riskless component. Then the initial covariance matrix Σ becomes singular and the problem becomes more complicated. We provide an explicit closed-form solution of this minimization problem, and the condition under which this solution exists. The results are illustrated using data of 10 stocks from NASDAQ/Computers

.

Portfolio Optimization Using a Block Structure for the Covariance Matrix

David Disatnik and Saggi Katz, Tel Aviv University

Implementing in practice the classical mean-variance theory for portfolio selection often results in obtaining portfolios with large short sale positions. Also, recent papers show that, due to estimation errors, existing and rather advanced mean-variance theory-based portfolio strategies do not consistently outperform the naïve 1/N portfolio that invests equally across N risky assets. In this paper, we introduce a portfolio strategy that generates a portfolio, with no short sale positions, that can outperform the 1/N portfolio. The strategy is investing in a global minimum variance portfolio (GMVP) that is constructed using an easy to calculate block structure for the covariance matrix of asset returns. Using this new block structure, the weights of the stocks in the GMVP can be found analytically, and as long as simple and directly computable conditions are met, these weights are positive.

 

A relation between Asset-Liability Problem and an Investment Portfolio Problem

Yaniv Zaks, Bar-Ilan University abd Zinoviy Landsman, University of Haifa

One of the fundamental questions in finance is how to select an investment portfolio? The most popular model is the Mean-Variance (MV) model that was presented by Markowitz in 1952. In the MV model, the optimization problem is a constrained quadratic functional. Another model, for example, is presented in Landsman (2008) where an explicit solution is obtained for the problem of minimizing the root of a quadratic functional subject to a linear constraint, which is the Mean-STD model. In actuarial science we consider an asset-liability problem (ALP). In this problem we are looking for an investment portfolio that will cover the liabilities. Although that in both of the problems the aim is to find an optimal investment portfolio, the analysis of the ALP is usually more complicated. The optimal solution to the mean-variance asset-liability problem is obtained by transferring the problem into the classical MV optimization problem, see Panjer et al. (2001). In this paper we show a technique to transfer the ALP into a standard investment portfolio problem in some other models.

מושב סטטיסטיקה רשמית – יו"ר צחי מקובקי. ארגון: אריה רייטר

מדד פריפריאליות של רשויות מקומיות בישראל

נטליה ציבל, הלשכה המרכזית לסטטיסטיקה

מדד הפריפריאליות, שפותח על ידי הלשכה המרכזית לסטטיסטיקה בהזמנת משרד הפנים, מאפיין ומסווג את הרשויות המקומיות בישראל לפי מיקומן הגיאוגרפי ביחס לריכוזי הפעילות החברתית והכלכלית בארץ. המדד נבנה כממוצע של שני מרכיבים: מדד נגישות פוטנציאלית (Potential Accessibility) וקרבה לגבול מחוז תל אביב.

המרכיב הראשון, מדד הנגישות הפוטנציאלית, מבוסס על "מודל הגרביטציה" ומבטא את קרבת הרשות המקומית לכל אחת מהרשויות המקומיות בארץ, משוקלל בגודל האוכלוסייה שלהן. גודל האוכלוסייה מהווה קירוב למגוון רחב של פרמטרים כלכליים כמו אפשרויות תעסוקה, נגישות לשווקים ולשירותים ועוד. הקרבה בין כל רשות מקומית לכל רשות מקומית נמדדת על ידי פונקצית המרחק ביניהן. פונקצית המרחק תלויה בפרמטר של רגישות למרחק הנאמד על סמך נתוני הניידות של האוכלוסייה, לפי מודל של אינטראקציה מרחבית.

המרכיב השני, הקרבה לגבול מחוז תל אביב, מחושב כהפך מהמרחק ומדגיש את קרבת הרשות המקומית למחוז בעל הריכוז הגבוה ביותר של פעילות כלכלית ועסקית בארץ.

חישוב המרחקים בין כל היחידות הגיאוגרפיות בכל אחד ממרכיבי המדד נעשה לפי הדרך הקצרה ביותר ברשת צירי התנועה בכבישים.

הרשויות המקומיות מדורגות לפי מדד הפריפריאליות בסדר עולה של רמת המרכזיות ומסווגות ל-10 אשכולות הומוגניים לפי שונות של ערך המדד. האשכולות מקובצים ל-5 רמות הפריפריאליות: פריפריאלי מאוד, פריפריאלי, בינוני, מרכזי, מרכזי מאוד.

המדד מאפשר השוואה בין פוטנציאלים לפיתוח של רשויות מקומיות שונות, ועשוי לסייע בזיהוי אזורים בעלי פוטנציאל לפיתוח נמוך ולהקצאת משאבים נבונה.

אמידת שונות בסקר פוסט-מפקדי

אריה רייטר, הלשכה המרכזית לסטטיסטיקה

סקר פוסט-מפקדי הוא סקר מדגמי המבוצע לאחר מפקד אוכלוסין, ובסמוך לו. סקר כזה מבוצע עבור אוכלוסיות שלא ניתן לבנות עבורן מסגרת דגימה (רשימת כל הפרטים באוכלוסיה) ללא המפקד.

סקר בעלי תואר שלישי יובא כדוגמא לסקר פוסט מפקדי. מפקד 2008 (כמו כל מפקד) מורכב מנתונים שנאספו עבור כל האוכלוסיה ("נתוני 100%") ומנתונים שנאספו עבור מדגם של כחמישית מהאוכלוסיה ("נתוני 20%"). המדגם לסקר בעלי תואר שלישי (ולעוד סקרים פוסט-מפקדיים) הוא תת-מדגם של מדגם ה-20% של המפקד. הדגימה לסקר זה נעשתה ללא כל קשר לתהליך הדגימה למפקד. במהלך ההרצאה תוצג בקצרה שיטת הדגימה והאמידה למפקד ולסקר, ויושם דגש על אמידת השונות – תהליך מורכב עבור הצירוף של שיטת הדגימה למפקד ושיטת הדגימה לסקר.

The Poisson Compound Decision Problem Revisited

Eitan Greenshtein, Central Bureau of Statistics

The compound decision problem, for a vector of independent Poisson random variables with possibly different means, has half a century old solution. However, it appears that the classical solution needs smoothing adjustments even when the dimension of the vector is large. We suggest and present such adjustments. The performance of the adjusted estimator  is demonstrated in simulations and in a real data example, which involves estimation of traffic accident rates in Israeli towns. (Joint with Larry Brown and Ya'acov Ritov)

 

 

תכניות המושבים ותקצירי ההרצאות

הרצאת פתיחה: תוכנית לימודים במתמטיקה: תכנון מונחה תמריצים

פרופ רון לבנה, ראש וועדת תוכנית הלימודים במתמטיקה לחטיבה העליונה

תוכניות לימודים משקפות במידה רבה את הערכים של המתכננים: צרכי הפרט וצרכי החברה, אינטגרציה של החלשים, טיפוח מצוינות, והכנה לסוגים שונים של מסלולי חיים בהמשך. אנו נציג מודל של מערכת החינוך בו נטען כי תכנון לפי ערכים כבסיס הוא שגוי מיסודו. מערכות חינוך מתוארות טוב יותר במונחים של תמריצים ואילוצים של כל הגורמים המעורבים בהם, מהתלמידים ועד הפוליטיקאים. בישראל במיוחד המערכת מתנהגת יותר כמערכת אקולוגית, או של "שוק חופשי", בה ההתנהגות בפועל היא פחות פועל יוצא של תכנון ויותר של האינטראקציה בין האינטרסים של המשתתפים. מטרת ניתוח כזה היא להראות את דרגות החופש העומדות לרשות המתכננים, ובכך אולי לשפר את סיכויי הצלחת התוכנית.


הרצאת סקירה: תוכנית הסטטיסטיקה בתעשיית הפיננסים

אפרים גולדין, G-stat

מושב הוראת הסטטיסטיקה בחטיבות הביניים ובתיכונים –  יו"ר: עדנה שכטמן.

מודל להוראת סטטיסטיקה בסיסית תוך שימוש באינטרנט ובמחשב

בני יקיר,האוניברסיטה העברית

לאחרונה פיתחתי שני קורסים להוראת סטטיסטיקה בסיסית לטובת אוניברסיטה מבוססת רשת. הקורסים מסתמכים על ספר מקוון שכתבתי, תרגול אוטומטי ברשת, תרגול בבדיקה עצמית של התלמידים, ופורומים לדיון משותף בבעיות שעולות מהחומר הנלמד. ההנחיה בקורסים אלה ניתנת בידי אנשים שאינם מומחים בסטטיסטיקה. בהרצאה נתאר את שיטת ההוראה באוניברסיטה הנ"ל ואת המאפיינים של הקורסים הספציפיים לסטטיסטיקה. מאפיין מרכזי הוא שימוש בסימולציות כתחליף לעיסוק מתמטי במושגים הסתברותיים. הסימולציות וניתוח סטטיסטי של מסדי נתונים נעשים תוך שימוש במערכת המחשוב R, שמרכיבים מינימליים ממנה נלמדים במסגרת הקורס.

סקירת תכנית הלימודים הנוכחית בסטטיסטיקה

דוד פייכנפלד – משרד החינוך

מה צריכה תכנית הלימודים בסטטיסטיקה לכלול?

יואב בנימיני, אוניברסיטת תל אביב, יוסי לוי, טבע

דיון בהשתתפות הקהל

מושב סטטיסטיקה יישומית – יו"ר: יקבע.

Managing Risks with Data

 

Ron S. Kenett, The KPA Group and University of Torino

 

Assessing exposure to potential risk events and initiating proactive risk mitigation actions is currently a clear priority of businesses, organizations and governments world-wide. Managing risks with data is a growing discipline that involves data acquisition and data merging, risk analytics and risk management decisions support systems. The presentation provides an overview of modern integrated risk management, including examples of how qualitative unstructured data, like text and voice recordings, can be combined with quantitative data like balance sheets and technical performance, to generate integrated risk scores. We suggest that data based risk analysis is an essential competency complementing and reinforcing the more traditional subjective scoring methods used in classical risk management. The examples we use consist of applications of risk scoring models for evaluating risks, Bayesian Networks to map cause and effect, Ontologies to interpret automated text annotation, ETL to merge various data bases and a follow up integrated risk management approach.

Are adaptive allocation designs beneficial for improving power in binary response trials?

David Azriel, The Hebrew University

We consider the classical problem of selecting the best of two treatments in clinical trials with binary response. The target is to find the design that maximizes the power of the relevant test.
Many papers use a normal approximation to the power function and claim that Neyman allocation that assigns subjects to treatment groups according to the ratio of the responses' standard deviations, should be used. As the standard deviations are unknown,  an adaptive design is often recommended. The asymptotic justification of this approach is arguable, since it uses the normal approximation in tails where the error in the approximation is larger than the estimated quantity. We consider two different approaches for optimality of designs that are related to Pitman and Bahadur definitions of relative efficiency of tests. We prove that the optimal allocation according to the Pitman criterion is the balanced allocation and that the optimal allocation according to the Bahadur approach depends on the unknown parameters.  Exact calculations reveal that the optimal allocation according to Bahadur is often close to the balanced design, and the powers of both are comparable to the Neyman allocation for small sample sizes and are generally better for large experiments. Our findings have important implications to the design of experiments, as the balanced design is proved to be optimal or close to optimal and the need for the complications involved in following an adaptive design for the purpose of increasing the power of tests is therefore questionable.

Individual driver’s undesirable driving events – a temporal perspective

אורן מוזיקנט, הלל בר גרא ועדנה שכטמן, אוניברסיטת בן-גוריון

The advantage of in-vehicle monitoring technology enables the collection of accurate and high resolution driving information. The availability of such large amount of information may open new possibilites to analyse behaviour of small samples and even individual’s driving behaviour in order to evaluat change over time, strengths and weaknesses which can be used to create personalized interventions and feedback meassages. In this paper we demonstrate how information from technology can be used for analyzing a single driver’s behavior. We analyzed individual driver’s information received from a novel in-vehicle technology which identifies the occurrences of undesirable driving events such as extreme braking and accelerating, sharp cornering and sudden lane changing. During the three years measurement period, information about more than 5704 trips, 2107 driving hours and 6878 undesired driving events was recorded. The maximum likelihood estimation was used to fit the Negative-Binomial model for the events rate. Then, several negative binomial regression models were used to analyze how trip duration and daytime and day of the week are linked to the rate of undesirable driving events. A generalized additive model (GAM) with the P-spline method for smoothing was used to evalauate how driving behavior changes over time, and a “before” and “after” study was performed to test the effect of providing feedback about driving behavior. Insurers and safety officers in commercial fleets can use driving information collected by technology to analyze trends in behavior and to evaluate the usefulness of intervention plans – even for a single driver.

מושב – בין תיאוריה ליישום – יו"ר : רות הלר

A nonparametric Item Response Theory

Shlomo Yitzhaki, The Hebrew University and Central Bureau of Statistics, Rinat Itzhaki, Henrietta Szold Institute. and Taina Pudalov, Central Bureau of Statistics

The Item Characteristic Curve describes the relationship between the probability of correctly answering a question and ability. Ability is a latent variable. Therefore one has to impose distributional assumptions on ability in order to estimate the relationship. In this paper we overcome the need to impose an assumption on the distribution of abilities by using the properties of concentration curves and the Gini Mean Difference. As a result we are able to investigate whether the probability of correctly answering a question is monotonically related to a specific ability. The paper demonstrates the properties of the technique.

Statistical analyses for time series data based on Gini

Amit Shelef, Ben-Gurion University

Most of the literature for analyzing time series measure dispersion using the variance. Moreover, the Ordinary Least Squares (OLS) is widely used in most time series models and methods. In this research we develop and investigate the properties of an alternative but parallel approach for analyzing time-series, using the Gini’s Mean Difference (GMD) as an alternative index of variability. The GMD shares many properties with the variance, but can be more informative about the properties of distributions that depart from normality as well as in the presence of extreme observations.

More specifically, we develop a new terminology by introducing parallel definitions for some concepts in time series, based on implementing the GMD instead of the variance (for example, Gini-autocorrelation). The GMD creates two Gini-covariances between each pair of variables and these are not necessarily equal. Consequently, it enables to check for violations of the implicit assumptions imposed by the use of the variance. For example, the relationship between Xt-1 and Xt can be measured in two directions (Gini-corr(Xt,Xt-1) and Gini-corr(Xt-1, Xt). We consider an autoregressive model with heavy tailed innovations and demonstrate via simulations that in the presence of outliers the two Gini-autocorrelations might be differ (a violation of the existing variance-based autocorrelation assumption). In order to demonstrate the contribution of using the GMD instead of the OLS when analyzing time series, we built a simulation for estimating an AR process using Gini regressions. Simulations show that in the presence of extreme observations, the Gini regression estimators are usually more robust than those of the OLS.

V-structure prioritization in learning a Bayesian network

Boaz Lerner, Ben-Gurion University

Constraint-based algorithms encounter v-structure contradictions that are usually resolved arbitrarily, based on the node ordering and orientation strategy. This affects graph correctness and may undermine causal inference and discovery. We suggest a method based on conditional mutual information to reduce arbitrariness and prioritize orientation of v-structures. Using known and synthetic networks, we show the advantage of this method in the PC, conservative PC, and recursive autonomy identification algorithms.

Why did the prediction model fail?

Yuval Benjamini and Bin Yu, University of California, Berkeley

Neuroscience recordings (fMRI, EEG) often generate noisy responses, that are only partially related to the cognitive tasks (or treatments). Thus, failure of prediction models to predict such responses can be blamed on either high measurement variance or problems with the prediction models (or both). Estimating the treatment variance (under the random-treatment ANOVA model) can help tell these causes apart.

The classical way to do this is to compare the variance-between and variance-within repeats. However, correlation between the measurements can severely bias these estimates. In this talk we introduce a novel permutation correction to remove this bias. It is flexible and easy to use, and does not require estimating the full correlation of the data or a balanced design. We demonstrate its usefulness for analyzing predictions of responses in the primary (V1) and intermediate (V4) visual cortex.

מושב אקטואריה וניהול סיכונים – יו"ר: יניב זקס. ארגון: יניב זקס

Extensions of the Lee-Carter model for simultaneous mortality projections

Yaser Awad, Shaul Bar-Lev, Udi Makov, University of Haifa

The literature on mortality projections was dominated in the 1990's by the Lee-Carter model which assumes that the central death rate for a specific age follows a log-bilinear form, allowing for variations in the level of mortality over time. The paper will discuss potential extensions to the Lee-Carter model for simultaneous projection of several populations.

Translation-invariant and positive-homogeneous risk measures and optimal

Zinoviy Landsman and Udi Makov, University of Haifa

The problem of risk portfolio optimization with translation-invariant and positive-homogeneous risk measures, which includes value-at-risk (VaR) and tail conditional expectation (TCE), leads to the problem of minimizing a combination of a linear functional and a square root of a quadratic functional for the case of elliptical multivariate underlying distributions. When the portfolio does not contain the riskless component this problem was recently treated by the authors. In this paper we consider the portfolio which contains riskless component. Then the initial covariance matrix Σ becomes singular and the problem becomes more complicated. We provide an explicit closed-form solution of this minimization problem, and the condition under which this solution exists. The results are illustrated using data of 10 stocks from NASDAQ/Computers.

Portfolio Optimization Using a Block Structure for the Covariance Matrix

David Disatnik and Saggi Katz, Tel Aviv University

Implementing in practice the classical mean-variance theory for portfolio selection often results in obtaining portfolios with large short sale positions. Also, recent papers show that, due to estimation errors, existing and rather advanced mean-variance theory-based portfolio strategies do not consistently outperform the naïve 1/N portfolio that invests equally across N risky assets. In this paper, we introduce a portfolio strategy that generates a portfolio, with no short sale positions, that can outperform the 1/N portfolio. The strategy is investing in a global minimum variance portfolio (GMVP) that is constructed using an easy to calculate block structure for the covariance matrix of asset returns. Using this new block structure, the weights of the stocks in the GMVP can be found analytically, and as long as simple and directly computable conditions are met, these weights are positive.

 

A relation between Asset-Liability Problem and an Investment Portfolio Problem

Yaniv Zaks, Bar-Ilan University abd Zinoviy Landsman, University of Haifa

One of the fundamental questions in finance is how to select an investment portfolio? The most popular model is the Mean-Variance (MV) model that was presented by Markowitz in 1952. In the MV model, the optimization problem is a constrained quadratic functional. Another model, for example, is presented in Landsman (2008) where an explicit solution is obtained for the problem of minimizing the root of a quadratic functional subject to a linear constraint, which is the Mean-STD model. In actuarial science we consider an asset-liability problem (ALP). In this problem we are looking for an investment portfolio that will cover the liabilities. Although that in both of the problems the aim is to find an optimal investment portfolio, the analysis of the ALP is usually more complicated. The optimal solution to the mean-variance asset-liability problem is obtained by transferring the problem into the classical MV optimization problem, see Panjer et al. (2001). In this paper we show a technique to transfer the ALP into a standard investment portfolio problem in some other models.

מושב סטטיסטיקה רשמית – יו"ר צחי מקובקי. ארגון: אריה רייטר

· מדד פריפריאליות של רשויות מקומיות בישראל

נטליה ציבל, הלשכה המרכזית לסטטיסטיקה

מדד הפריפריאליות, שפותח על ידי הלשכה המרכזית לסטטיסטיקה בהזמנת משרד הפנים, מאפיין ומסווג את הרשויות המקומיות בישראל לפי מיקומן הגיאוגרפי ביחס לריכוזי הפעילות החברתית והכלכלית בארץ. המדד נבנה כממוצע של שני מרכיבים: מדד נגישות פוטנציאלית (Potential Accessibility) וקרבה לגבול מחוז תל אביב.

המרכיב הראשון, מדד הנגישות הפוטנציאלית, מבוסס על "מודל הגרביטציה" ומבטא את קרבת הרשות המקומית לכל אחת מהרשויות המקומיות בארץ, משוקלל בגודל האוכלוסייה שלהן. גודל האוכלוסייה מהווה קירוב למגוון רחב של פרמטרים כלכליים כמו אפשרויות תעסוקה, נגישות לשווקים ולשירותים ועוד. הקרבה בין כל רשות מקומית לכל רשות מקומית נמדדת על ידי פונקצית המרחק ביניהן. פונקצית המרחק תלויה בפרמטר של רגישות למרחק הנאמד על סמך נתוני הניידות של האוכלוסייה, לפי מודל של אינטראקציה מרחבית.

המרכיב השני, הקרבה לגבול מחוז תל אביב, מחושב כהפך מהמרחק ומדגיש את קרבת הרשות המקומית למחוז בעל הריכוז הגבוה ביותר של פעילות כלכלית ועסקית בארץ.

חישוב המרחקים בין כל היחידות הגיאוגרפיות בכל אחד ממרכיבי המדד נעשה לפי הדרך הקצרה ביותר ברשת צירי התנועה בכבישים.

הרשויות המקומיות מדורגות לפי מדד הפריפריאליות בסדר עולה של רמת המרכזיות ומסווגות ל-10 אשכולות הומוגניים לפי שונות של ערך המדד. האשכולות מקובצים ל-5 רמות הפריפריאליות: פריפריאלי מאוד, פריפריאלי, בינוני, מרכזי, מרכזי מאוד.

המדד מאפשר השוואה בין פוטנציאלים לפיתוח של רשויות מקומיות שונות, ועשוי לסייע בזיהוי אזורים בעלי פוטנציאל לפיתוח נמוך ולהקצאת משאבים נבונה.

· אמידת שונות בסקר פוסט-מפקדי

אריה רייטר, הלשכה המרכזית לסטטיסטיקה

סקר פוסט-מפקדי הוא סקר מדגמי המבוצע לאחר מפקד אוכלוסין, ובסמוך לו. סקר כזה מבוצע עבור אוכלוסיות שלא ניתן לבנות עבורן מסגרת דגימה (רשימת כל הפרטים באוכלוסיה) ללא המפקד.

סקר בעלי תואר שלישי יובא כדוגמא לסקר פוסט מפקדי. מפקד 2008 (כמו כל מפקד) מורכב מנתונים שנאספו עבור כל האוכלוסיה ("נתוני 100%") ומנתונים שנאספו עבור מדגם של כחמישית מהאוכלוסיה ("נתוני 20%"). המדגם לסקר בעלי תואר שלישי (ולעוד סקרים פוסט-מפקדיים) הוא תת-מדגם של מדגם ה-20% של המפקד. הדגימה לסקר זה נעשתה ללא כל קשר לתהליך הדגימה למפקד. במהלך ההרצאה תוצג בקצרה שיטת הדגימה והאמידה למפקד ולסקר, ויושם דגש על אמידת השונות – תהליך מורכב עבור הצירוף של שיטת הדגימה למפקד ושיטת הדגימה לסקר.

The Poisson Compound Decision Problem Revisited

Eitan Greenshtein, Central Bureau of Statistics

The compound decision problem, for a vector of independent Poisson random variables with possibly different means, has half a century old solution. However, it appears that the classical solution needs smoothing adjustments even when the dimension of the vector is large. We suggest and present such adjustments. The performance of the adjusted estimator  is demonstrated in simulations and in a real data example, which involves estimation of traffic accident rates in Israeli towns. (Joint with Larry Brown and Ya'acov Ritov)

השאר תגובה